查看原文
其他

新型冠状病毒通过交通流的传播数据推演(含公开数据集与直播预告)

张江 董磊 集智俱乐部 2021-02-09


导语武汉新型冠状病毒疫情不断蔓延,抵抗病毒的传播是一场全方位的战争。经过数据分析和模型研究发现,城市间的交通流量决定了城市间的病毒传播情况。集智开放数据资源,希望能在疫情预测与预防方面提供帮助。


交流数据与病毒传播


最近新型冠状病毒成为了万众瞩目的观点,病毒学研究领域专家管轶却选择了当“逃兵”,他说:“身经百战,但这次感到极为无力”,因为新型冠状病毒已经广泛传播出去了,且不像SARS一样有清晰的传播链。如果我们能预知疾病在未来传播的轨迹,我们的疾病防控工作才能有的放矢。不过,疾病的传播因素异常复杂,它跟病毒携带者的身体条件、所处环境的情况、天气的情况、接触者的条件等都密切相关。


然而,如果我们跳出这个微观的尺度来看,把一个城市抽象为一个单点,那么我们完全有可能对城市间的疾病传播情况作出一定意义上合理的推断。当我们聚焦在城市这个尺度的时候,就会发现,城市间的交通流量决定了城市间的病毒传播情况。这是因为交通流量越大的两个城市,病毒携带者也越可能来往。

 

这一结论是有其科学依据的。比如,2013年Dirk Brockman等人在Science上发表的《由网络驱动的复杂传染现象中隐藏的几何结构》一文就指出,疾病的传播其实与城市间的地理距离没有什么关系,而与城市间的“等效距离”密切相关。这里的“等效距离”就是指根据城市间交通流量数据折合之后的距离。


论文题目:The Hidden Geometry of Complex, Network-Driven Contagion Phenomena
论文地址:https://science.sciencemag.org/content/342/6164/1337


如下图所示,无论从真实的病毒传播案例(2009年的H1N1和2003年的SARS)还是模型模拟的结果看,地理距离与病毒感染的时间几乎没有什么关系。因此,两个城市地理上靠的越近并不意味着病毒越容易传过去。

       

 

A图是模型模拟的一次病毒从香港爆发的情况,不同颜色的点表示不同的大陆区域,连边表示航空网络。B表示的是病毒在爆发105天以内感染到的世界各大城市。C图展示了这次病毒爆发中,病毒从开始传染到每一个目标城市所需要的时间,其中每一个数据点就是一个城市,横坐标是城市间的地理距离,纵坐标是从爆发到该城市第一个病毒病例发现的时间。D和E两个图分别表示在2009年的禽流感(H1N1)和2003年的非典(SARS)两次病毒爆发情况下,病毒传播时间(纵坐标)与地理距离(横坐标)之间的关系,其中每一个点表示一个城市。可以看出,病毒传播与地理距离基本没什么相关性。


反过来,如果我们重新定义城市间的有效距离为某一个乘客从A到B的最可能路径的长度,则病毒传播的规律性就异常明显了。什么叫最可能路径呢?就是说我们可以把一个乘客当作一个随机游走粒子,它按照流量的大小随机访问周围的城市,到了下一个城市后,他再次按照流量大小折合为概率访问下一个城市的临近城市……于是这样的粒子从A到B最有可能走的那条路径就是最可能路径。

       


图A展示的是模拟的病毒传播中,按照等效距离大小对各个城市的排列情况,即中心为香港,到中心的距离即为等效距离,不同的极角按照地理距离排布,即地理越靠近的城市,极角越相似。B图则展示了在这样的城市排布下,病毒在72天内的扩散情况。C图展示的是疾病感染时间与等效距离之间的关系,D、E两图展示的则是2009年的禽流感和2003年的SARS两次爆发中每个城市的感染时间与有效距离之间的关系。可以看出,我们可以利用这样的有效距离比较准确地推测出病毒在某个城市爆发的日期。

现在正值春运高峰期,交通枢纽网络会承载比往常更大的压力。武汉市新型肺炎疫情牵动着大家的心,作为一个城市数据领域的研究者和从业者,我们发现,有一些可能尚未被披露的「事实」。

在这里,我们想共享一些数据和对数据统计的结果,希望可以对疫情的防治提供一些帮助。

图片来源:丁香园(https://3g.dxy.cn/newh5/view/pneumonia)截止 1 月 21 日


从丁香园汇总发布的地图来看,主要病例集中在湖北省广东省北京市上海市,这比较符合常识,也符合我们的数据和模型判断。因为广东、北京和上海是与湖北联系最为紧密的区域。

但其中有一点与我们的数据和经验差别较大,那就是湖北省内的疫情都在武汉市而根据人口流动的规律,相邻城市且人口规模比较大的城市人口流动会更加频繁。疾病的传播也会遵从这个人口流动规律进行传播。

我们根据 2015-16 年的人口流动数据计算了武汉市与全国各城市的联系,可以看到,前 20 名的城市里面,大部分集中在湖北省。出现在列表里的省外城市大部分已经有了疫情的出现(符合人口流动的规律),那么湖北省市其它城市的情况如何,值得我们重点关注!(标红的为湖北省内城市)

特别是,作为全国城市网络中的重要节点,武汉的辐射能力非常强。

利用 2015-16 年人口迁徙数据(基于手机位置)绘制的武汉市与其它城市的联系,线段宽度代表流动量,蓝色圆圈代表城市人口规模,位于中心地带的就是武汉。

(数据来源:《基于手机位置数据的城市人口时空分布特征研究》,董磊,清华大学博士论文,2017年)


从武汉市出发的目的地前20城市列表


城市代号:城市名称

  • 4209:孝感市

  • 4211:黄冈市

  • 4403:深圳市(有病例)

  • 4210:荆州市

  • 4206:襄阳市

  • 3100:上海市(有病例)

  • 1100:北京市(有病例)

  • 4202:黄石市

  • 4401:广州市

  • 4212:咸宁市

  • 4205:宜昌市

  • 4290:仙桃市/潜江市/天门市

  • 4207:鄂州市

  • 4208:荆门市

  • 4419:东莞市

  • 4203:十堰市

  • 4213:随州市

  • 4228:恩施土家族苗族自治州

  • 3301:杭州市(有病例)

  • 5000:重庆市

注:病例情况来源为丁香园,截至2020年1月21日上午。


最后,我们集智俱乐部公开了一个数据集,即武汉到全国各大城市之间的流量数据,希望有志于运用大数据的方式精准推断这次病毒传播情况的朋友们可以动手操作起来。这是一次很好的实操机会。


有兴趣一起参与数据分析,请扫码加小助手微信

以上数据和分析结果均已开源,希望能为这次疫情防止贡献出我们的力量。


下载链接:https://github.com/leiii/population_flow


这次疫情引起了大家的高度关注,也希望有关部门能披露更多数据(包括武汉周边县市区的情况),能让大家更好的抵御潜在风险。


另外,我们刚刚得知,百度已经将全国各个城市间实时的交通流数据公开:




今晚直播预告:

通过网络的隐藏几何推断病毒的传播


最近新型冠状病毒成为焦点,预知疾病的传播轨迹能够协助疫情防控工作。今晚,张江教授将解读Science经典文献The Hidden Geometry of Complex, Network-Driven Contagion Phenomena,探究交通流量数据与城市间病毒传播的关系。张江是北京师范大学系统科学学院教授、集智俱乐部创始人、集智学园创始人。主要研究领域包括复杂网络与机器学习、复杂系统分析与建模、计算社会科学等。


【时间】:1月23日今晚,20:30-21:30

【主讲人】:张江

【主题】:通过网络的隐藏几何推断病毒的传播

【链接】:https://live.bilibili.com/8091531


扫描下方二维码进入直播间




推荐课程:复杂的网络与优雅的几何


本课程沿着几何的线路重新梳理复杂网络,包括ER随机网、小世界网络、无标度网络,网络的分形特征等。之后,我们重点讲述如何利用真实的网络数据来重构系统的空间几何特征。


课程链接:https://campus.swarma.org/play/play?id=11115



作者:张江、董磊

编辑:张希妍



推荐阅读


技术如何演化:创新背后的数学递归结构

人工生命全景图:如何创造出超越人工智能的生命系统

学科交叉趋势:跨学科论文被引数量明显高于主流学科论文

网络中的嵌套结构决定公司与国家的命运

加入集智,一起复杂!






集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

◆ ◆ ◆

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存